Normalize text


In [1]:
herod_fp = '/Users/kyle/cltk_data/greek/text/tlg/plaintext/TLG0016.txt'

with open(herod_fp) as fo:
    herod_raw = fo.read()

In [2]:
print(herod_raw[2000:2500])  # What do we notice needs help?


ρίνασθαι ὡς οὐδὲ ἐκεῖνοι Ἰοῦς τῆς Ἀργείης ἔδοσάν σφι 
δίκας τῆς ἁρπαγῆς: οὐδὲ ὦν αὐτοὶ δώσειν ἐκείνοισι. Δευ- 
τέρῃ δὲ λέγουσι γενεῇ μετὰ ταῦτα Ἀλέξανδρον τὸν Πριά-
μου ἀκηκοότα ταῦτα ἐθελῆσαί οἱ ἐκ τῆς Ἑλλάδος δι' 
ἁρπαγῆς γενέσθαι γυναῖκα, ἐπιστάμενον πάντως ὅτι οὐ 
δώσει δίκας: οὐδὲ γὰρ ἐκείνους διδόναι. Οὕτω δὴ ἁρπά-
σαντος αὐτοῦ Ἑλένην, τοῖσι Ἕλλησι δόξαι πρῶτον πέμ-
ψαντας ἀγγέλους ἀπαιτέειν τε Ἑλένην καὶ δίκας τῆς 
ἁρπαγῆς αἰτέειν. Τοὺς δὲ προϊσχομένων ταῦτα προφέρειν 
σφι Μηδείης τὴν ἁρπ

In [3]:
from cltk.corpus.utils.formatter import tlg_plaintext_cleanup

In [4]:
herod_clean = tlg_plaintext_cleanup(herod_raw, rm_punctuation=True, rm_periods=False)

In [5]:
print(herod_clean[2000:2500])


έρῃ δὲ λέγουσι γενεῇ μετὰ ταῦτα Ἀλέξανδρον τὸν Πριάμου ἀκηκοότα ταῦτα ἐθελῆσαί οἱ ἐκ τῆς Ἑλλάδος δι ἁρπαγῆς γενέσθαι γυναῖκα ἐπιστάμενον πάντως ὅτι οὐ δώσει δίκας οὐδὲ γὰρ ἐκείνους διδόναι. Οὕτω δὴ ἁρπάσαντος αὐτοῦ Ἑλένην τοῖσι Ἕλλησι δόξαι πρῶτον πέμψαντας ἀγγέλους ἀπαιτέειν τε Ἑλένην καὶ δίκας τῆς ἁρπαγῆς αἰτέειν. Τοὺς δὲ προϊσχομένων ταῦτα προφέρειν σφι Μηδείης τὴν ἁρπαγήν ὡς οὐ δόντες αὐτοὶ δίκας οὐδὲ ἐκδόντες ἀπαιτεόντων βουλοίατό σφι παρ ἄλλων δίκας γίνεσθαι. Μέχρι μὲν ὦν τούτου ἁρπαγὰς μο

Tokenize sentences


In [6]:
from cltk.tokenize.sentence import TokenizeSentence

In [7]:
tokenizer = TokenizeSentence('greek')

In [8]:
herod_sents = tokenizer.tokenize_sentences(herod_clean)

In [9]:
print(herod_sents[:5])


[' Ἡροδότου Θουρίου ἱστορίης ἀπόδεξις ἥδε ὡς μήτε τὰ γενόμενα ἐξ ἀνθρώπων τῷ χρόνῳ ἐξίτηλα γένηται μήτε ἔργα μεγάλα τε καὶ θωμαστά τὰ μὲν Ἕλλησι τὰ δὲ βαρβάροισι ἀποδεχθέντα ἀκλέα γένηται τά τε ἄλλα καὶ δι ἣν αἰτίην ἐπολέμησαν ἀλλήλοισι.', 'Περσέων μέν νυν οἱ λόγιοι Φοίνικας αἰτίους φασὶ γενέσθαι τῆς διαφορῆς τούτους γάρ ἀπὸ τῆς Ἐρυθρῆς καλεομένης θαλάσσης ἀπικομένους ἐπὶ τήνδε τὴν θάλασσαν καὶ οἰκήσαντας τοῦτον τὸν χῶρον τὸν καὶ νῦν οἰκέουσι αὐτίκα ναυτιλίῃσι μακρῇσι ἐπιθέσθαι ἀπαγινέοντας δὲ φορτία Αἰγύπτιά τε καὶ Ἀσσύρια τῇ τε ἄλλῃ χώρῃ ἐσαπικνέεσθαι καὶ δὴ καὶ ἐς Ἄργος τὸ δὲ Ἄργος τοῦτον τὸν χρόνον προεῖχε ἅπασι τῶν ἐν τῇ νῦν Ἑλλάδι καλεομένῃ χώρῃ.', 'Ἀπικομένους δὲ τοὺς Φοίνικας ἐς δὴ τὸ Ἄργος τοῦτο διατίθεσθαι τὸν φόρτον.', 'Πέμπτῃ δὲ ἢ ἕκτῃ ἡμέρῃ ἀπ ἧς ἀπίκοντο ἐξεμπολημένων σφι σχεδὸν πάντων ἐλθεῖν ἐπὶ τὴν θάλασσαν γυναῖκας ἄλλας τε πολλὰς καὶ δὴ καὶ τοῦ βασιλέος θυγατέρα τὸ δέ οἱ οὔνομα εἶναι κατὰ τὠυτὸ τὸ καὶ Ἕλληνες λέγουσι Ἰοῦν τὴν Ἰνάχου.', 'Ταύτας στάσας κατὰ πρύμνην τῆς νεὸς ὠνέεσθαι τῶν φορτίων τῶν σφι ἦν θυμὸς μάλιστα καὶ τοὺς Φοίνικας διακελευσαμένους ὁρμῆσαι ἐπ αὐτάς.']

In [10]:
for sent in herod_sents:
    print(sent)
    print()
    input()


 Ἡροδότου Θουρίου ἱστορίης ἀπόδεξις ἥδε ὡς μήτε τὰ γενόμενα ἐξ ἀνθρώπων τῷ χρόνῳ ἐξίτηλα γένηται μήτε ἔργα μεγάλα τε καὶ θωμαστά τὰ μὲν Ἕλλησι τὰ δὲ βαρβάροισι ἀποδεχθέντα ἀκλέα γένηται τά τε ἄλλα καὶ δι ἣν αἰτίην ἐπολέμησαν ἀλλήλοισι.


Περσέων μέν νυν οἱ λόγιοι Φοίνικας αἰτίους φασὶ γενέσθαι τῆς διαφορῆς τούτους γάρ ἀπὸ τῆς Ἐρυθρῆς καλεομένης θαλάσσης ἀπικομένους ἐπὶ τήνδε τὴν θάλασσαν καὶ οἰκήσαντας τοῦτον τὸν χῶρον τὸν καὶ νῦν οἰκέουσι αὐτίκα ναυτιλίῃσι μακρῇσι ἐπιθέσθαι ἀπαγινέοντας δὲ φορτία Αἰγύπτιά τε καὶ Ἀσσύρια τῇ τε ἄλλῃ χώρῃ ἐσαπικνέεσθαι καὶ δὴ καὶ ἐς Ἄργος τὸ δὲ Ἄργος τοῦτον τὸν χρόνον προεῖχε ἅπασι τῶν ἐν τῇ νῦν Ἑλλάδι καλεομένῃ χώρῃ.

---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-10-3e8a01c25751> in <module>()
      2     print(sent)
      3     print()
----> 4     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

Make word tokens


In [11]:
from cltk.tokenize.word import nltk_tokenize_words

In [12]:
for sent in herod_sents:
    words = nltk_tokenize_words(sent)
    print(words)
    input()


['Ἡροδότου', 'Θουρίου', 'ἱστορίης', 'ἀπόδεξις', 'ἥδε', 'ὡς', 'μήτε', 'τὰ', 'γενόμενα', 'ἐξ', 'ἀνθρώπων', 'τῷ', 'χρόνῳ', 'ἐξίτηλα', 'γένηται', 'μήτε', 'ἔργα', 'μεγάλα', 'τε', 'καὶ', 'θωμαστά', 'τὰ', 'μὲν', 'Ἕλλησι', 'τὰ', 'δὲ', 'βαρβάροισι', 'ἀποδεχθέντα', 'ἀκλέα', 'γένηται', 'τά', 'τε', 'ἄλλα', 'καὶ', 'δι', 'ἣν', 'αἰτίην', 'ἐπολέμησαν', 'ἀλλήλοισι', '.']

['Περσέων', 'μέν', 'νυν', 'οἱ', 'λόγιοι', 'Φοίνικας', 'αἰτίους', 'φασὶ', 'γενέσθαι', 'τῆς', 'διαφορῆς', 'τούτους', 'γάρ', 'ἀπὸ', 'τῆς', 'Ἐρυθρῆς', 'καλεομένης', 'θαλάσσης', 'ἀπικομένους', 'ἐπὶ', 'τήνδε', 'τὴν', 'θάλασσαν', 'καὶ', 'οἰκήσαντας', 'τοῦτον', 'τὸν', 'χῶρον', 'τὸν', 'καὶ', 'νῦν', 'οἰκέουσι', 'αὐτίκα', 'ναυτιλίῃσι', 'μακρῇσι', 'ἐπιθέσθαι', 'ἀπαγινέοντας', 'δὲ', 'φορτία', 'Αἰγύπτιά', 'τε', 'καὶ', 'Ἀσσύρια', 'τῇ', 'τε', 'ἄλλῃ', 'χώρῃ', 'ἐσαπικνέεσθαι', 'καὶ', 'δὴ', 'καὶ', 'ἐς', 'Ἄργος', 'τὸ', 'δὲ', 'Ἄργος', 'τοῦτον', 'τὸν', 'χρόνον', 'προεῖχε', 'ἅπασι', 'τῶν', 'ἐν', 'τῇ', 'νῦν', 'Ἑλλάδι', 'καλεομένῃ', 'χώρῃ', '.']

['Ἀπικομένους', 'δὲ', 'τοὺς', 'Φοίνικας', 'ἐς', 'δὴ', 'τὸ', 'Ἄργος', 'τοῦτο', 'διατίθεσθαι', 'τὸν', 'φόρτον', '.']
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-12-474294662b9f> in <module>()
      2     words = nltk_tokenize_words(sent)
      3     print(words)
----> 4     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

Tokenize Latin enclitics


In [13]:
from cltk.corpus.utils.formatter import phi5_plaintext_cleanup
from cltk.tokenize.word import WordTokenizer

# 'LAT0474': 'Marcus Tullius Cicero, Cicero, Tully',
cicero_fp = '/Users/kyle/cltk_data/latin/text/phi5/plaintext/LAT0474.TXT'

with open(cicero_fp) as fo:
    cicero_raw = fo.read()
cicero_clean = phi5_plaintext_cleanup(cicero_raw, rm_punctuation=True, rm_periods=False)   # ~5 sec

In [14]:
print(cicero_clean[400:600])


mediocria verum ita se res habet ut ego qui neque usu satis et ingenio parum possum cum patrono disertissimo comparer P. Quinctius cui tenues opes nullae facultates exiguae amicorum copiae sunt cum ad

In [16]:
sent_tokenizer = TokenizeSentence('latin')
cicero_sents = tokenizer.tokenize_sentences(cicero_clean)

print(cicero_sents[:3])


[' Quae res in civitate duae plurimum possunt eae contra nos ambae faciunt in hoc tempore summa gratia et eloquentia quarum alteram C. Aquili vereor alteram metuo.', 'Eloquentia Q. Hortensi ne me in dicendo impediat non nihil commoveor gratia Sex.', 'Naevi ne P. Quinctio noceat id vero non mediocriter pertimesco.']

In [21]:
word_tokenizer = WordTokenizer('latin')  # Patrick's tokenizer

for sent in cicero_sents:
    #words = nltk_tokenize_words(sent)
    sub_words = word_tokenizer.tokenize(sent)
    print(sub_words)
    
    input()


['Quae', 'res', 'in', 'civitate', 'duae', 'plurimum', 'possunt', 'eae', 'contra', 'nos', 'ambae', 'faciunt', 'in', 'hoc', 'tempore', 'summa', 'gratia', 'et', 'eloquentia', 'quarum', 'alteram', 'C.', 'Aquili', 'vereor', 'alteram', 'metuo.']

['Eloquentia', 'Q.', 'Hortensi', 'ne', 'me', 'in', 'dicendo', 'impediat', 'non', 'nihil', 'commoveor', 'gratia', 'Sex.']

['Naevi', 'ne', 'P.', 'Quinctio', 'noceat', 'id', 'vero', 'non', 'mediocriter', 'pertimesco.']

['Ne', '-que', 'hoc', 'tanto', 'opere', 'querendum', 'videretur', 'haec', 'summa', 'in', 'illis', 'esse', 'si', 'in', 'nobis', 'essent', 'saltem', 'mediocria', 'verum', 'ita', 'se', 'res', 'habet', 'ut', 'ego', 'qui', 'neque', 'usu', 'satis', 'et', 'ingenio', 'parum', 'possum', 'cum', 'patrono', 'disertissimo', 'comparer', 'P.', 'Quinctius', 'cui', 'tenues', 'opes', 'nullae', 'facultates', 'exiguae', 'amicorum', 'copiae', 'sunt', 'cum', 'adversario', 'gratiosissimo', 'contendat.']

['Illud', 'quoque', 'nobis', 'accedit', 'incommodum', 'quod', 'M.', 'Iunius', 'qui', 'hanc', 'causam', 'aliquotiens', 'apud', 'te', 'egit', 'homo', 'et', 'in', 'aliis', 'causis', 'exercitatus', 'et', 'in', 'hac', 'multum', 'ac', 'saepe', 'versatus', 'hoc', 'tempore', 'abest', 'nova', 'legatio', '-ne', 'impeditus', 'et', 'ad', 'me', 'ventum', 'est', 'qui', 'ut', 'summa', 'haberem', 'cetera', 'temporis', 'quidem', 'certe', 'vix', 'satis', 'habui', 'ut', 'rem', 'tantam', 'tot', 'controversiis', 'implicatam', 'possem', 'cognoscere.']
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-21-0fcae3643cfc> in <module>()
      6     print(sub_words)
      7 
----> 8     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

POS Tagging


In [25]:
from cltk.tag.pos import POSTag
tagger = POSTag('greek')

# Heordotus again
for sent in herod_sents:
    tagged_text = tagger.tag_unigram(sent)
    print(tagged_text)
    input()


[('Ἡροδότου', None), ('Θουρίου', None), ('ἱστορίης', None), ('ἀπόδεξις', None), ('ἥδε', 'P-S---FN-'), ('ὡς', 'D--------'), ('μήτε', None), ('τὰ', 'L-P---NA-'), ('γενόμενα', None), ('ἐξ', 'R--------'), ('ἀνθρώπων', None), ('τῷ', 'P-S---MD-'), ('χρόνῳ', None), ('ἐξίτηλα', None), ('γένηται', None), ('μήτε', None), ('ἔργα', 'N-P---NA-'), ('μεγάλα', None), ('τε', 'G--------'), ('καὶ', 'C--------'), ('θωμαστά', None), ('τὰ', 'L-P---NA-'), ('μὲν', 'G--------'), ('Ἕλλησι', None), ('τὰ', 'L-P---NA-'), ('δὲ', 'G--------'), ('βαρβάροισι', None), ('ἀποδεχθέντα', None), ('ἀκλέα', None), ('γένηται', None), ('τά', None), ('τε', 'G--------'), ('ἄλλα', 'A-P---NA-'), ('καὶ', 'C--------'), ('δι', None), ('ἣν', 'P-S---FA-'), ('αἰτίην', None), ('ἐπολέμησαν', None), ('ἀλλήλοισι', None), ('.', 'U--------')]

[('Περσέων', None), ('μέν', None), ('νυν', 'D--------'), ('οἱ', 'P-S---MD-'), ('λόγιοι', None), ('Φοίνικας', None), ('αἰτίους', None), ('φασὶ', 'V3PPIA---'), ('γενέσθαι', None), ('τῆς', 'L-S---FG-'), ('διαφορῆς', None), ('τούτους', None), ('γάρ', None), ('ἀπὸ', 'R--------'), ('τῆς', 'L-S---FG-'), ('Ἐρυθρῆς', None), ('καλεομένης', None), ('θαλάσσης', None), ('ἀπικομένους', None), ('ἐπὶ', 'R--------'), ('τήνδε', None), ('τὴν', 'P-S---FA-'), ('θάλασσαν', None), ('καὶ', 'C--------'), ('οἰκήσαντας', None), ('τοῦτον', 'A-S---MA-'), ('τὸν', 'P-S---MA-'), ('χῶρον', 'N-S---MA-'), ('τὸν', 'P-S---MA-'), ('καὶ', 'C--------'), ('νῦν', 'D--------'), ('οἰκέουσι', None), ('αὐτίκα', None), ('ναυτιλίῃσι', None), ('μακρῇσι', 'A-P---FD-'), ('ἐπιθέσθαι', None), ('ἀπαγινέοντας', None), ('δὲ', 'G--------'), ('φορτία', None), ('Αἰγύπτιά', None), ('τε', 'G--------'), ('καὶ', 'C--------'), ('Ἀσσύρια', None), ('τῇ', 'P-S---FD-'), ('τε', 'G--------'), ('ἄλλῃ', 'D--------'), ('χώρῃ', None), ('ἐσαπικνέεσθαι', None), ('καὶ', 'C--------'), ('δὴ', 'G--------'), ('καὶ', 'C--------'), ('ἐς', 'R--------'), ('Ἄργος', None), ('τὸ', 'L-S---NA-'), ('δὲ', 'G--------'), ('Ἄργος', None), ('τοῦτον', 'A-S---MA-'), ('τὸν', 'P-S---MA-'), ('χρόνον', None), ('προεῖχε', None), ('ἅπασι', 'A-P---MD-'), ('τῶν', 'L-P---MG-'), ('ἐν', 'R--------'), ('τῇ', 'P-S---FD-'), ('νῦν', 'D--------'), ('Ἑλλάδι', None), ('καλεομένῃ', None), ('χώρῃ', None), ('.', 'U--------')]

[('Ἀπικομένους', None), ('δὲ', 'G--------'), ('τοὺς', 'P-P---MA-'), ('Φοίνικας', None), ('ἐς', 'R--------'), ('δὴ', 'G--------'), ('τὸ', 'L-S---NA-'), ('Ἄργος', None), ('τοῦτο', 'A-S---NA-'), ('διατίθεσθαι', None), ('τὸν', 'P-S---MA-'), ('φόρτον', None), ('.', 'U--------')]
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-25-3de90ac17e26> in <module>()
      6     tagged_text = tagger.tag_unigram(sent)
      7     print(tagged_text)
----> 8     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

NER


In [29]:
## Latin -- decent, but see M, P, etc
from cltk.tag import ner

# Heordotus again
for sent in cicero_sents:
    ner_tags = ner.tag_ner('latin', input_text=sent, output_type=list)
    print(ner_tags)
    input()


[('Quae',), ('res',), ('in',), ('civitate',), ('duae',), ('plurimum',), ('possunt',), ('eae',), ('contra',), ('nos',), ('ambae',), ('faciunt',), ('in',), ('hoc',), ('tempore',), ('summa',), ('gratia',), ('et',), ('eloquentia',), ('quarum',), ('alteram',), ('C',), ('.',), ('Aquili', 'Entity'), ('vereor',), ('alteram',), ('metuo',), ('.',)]

[('Eloquentia',), ('Q',), ('.',), ('Hortensi', 'Entity'), ('ne',), ('me',), ('in',), ('dicendo',), ('impediat',), ('non',), ('nihil',), ('commoveor',), ('gratia',), ('Sex', 'Entity'), ('.',)]

[('Naevi',), ('ne',), ('P',), ('.',), ('Quinctio', 'Entity'), ('noceat',), ('id',), ('vero',), ('non',), ('mediocriter',), ('pertimesco',), ('.',)]

[('Neque',), ('hoc',), ('tanto',), ('opere',), ('querendum',), ('videretur',), ('haec',), ('summa',), ('in',), ('illis',), ('esse',), ('si',), ('in',), ('nobis',), ('essent',), ('saltem',), ('mediocria',), ('verum',), ('ita',), ('se',), ('res',), ('habet',), ('ut',), ('ego',), ('qui',), ('neque',), ('usu',), ('satis',), ('et',), ('ingenio',), ('parum',), ('possum',), ('cum',), ('patrono',), ('disertissimo',), ('comparer',), ('P',), ('.',), ('Quinctius', 'Entity'), ('cui',), ('tenues',), ('opes',), ('nullae',), ('facultates',), ('exiguae',), ('amicorum',), ('copiae',), ('sunt',), ('cum',), ('adversario',), ('gratiosissimo',), ('contendat',), ('.',)]
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-29-34acbd162649> in <module>()
      6     ner_tags = ner.tag_ner('latin', input_text=sent, output_type=list)
      7     print(ner_tags)
----> 8     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

In [27]:
# Greek -- not as good!
from cltk.tag import ner

# Heordotus again
for sent in herod_sents:
    ner_tags = ner.tag_ner('greek', input_text=sent, output_type=list)
    print(ner_tags)
    input()


[('Ἡροδότου',), ('Θουρίου',), ('ἱστορίης',), ('ἀπόδεξις',), ('ἥδε',), ('ὡς',), ('μήτε',), ('τὰ',), ('γενόμενα',), ('ἐξ',), ('ἀνθρώπων',), ('τῷ',), ('χρόνῳ',), ('ἐξίτηλα',), ('γένηται',), ('μήτε',), ('ἔργα',), ('μεγάλα',), ('τε',), ('καὶ',), ('θωμαστά',), ('τὰ',), ('μὲν',), ('Ἕλλησι', 'Entity'), ('τὰ',), ('δὲ',), ('βαρβάροισι',), ('ἀποδεχθέντα',), ('ἀκλέα',), ('γένηται',), ('τά',), ('τε',), ('ἄλλα',), ('καὶ',), ('δι',), ('ἣν',), ('αἰτίην',), ('ἐπολέμησαν',), ('ἀλλήλοισι',), ('.',)]

[('Περσέων',), ('μέν',), ('νυν',), ('οἱ',), ('λόγιοι',), ('Φοίνικας',), ('αἰτίους',), ('φασὶ',), ('γενέσθαι',), ('τῆς',), ('διαφορῆς',), ('τούτους',), ('γάρ',), ('ἀπὸ',), ('τῆς',), ('Ἐρυθρῆς', 'Entity'), ('καλεομένης',), ('θαλάσσης',), ('ἀπικομένους',), ('ἐπὶ',), ('τήνδε',), ('τὴν',), ('θάλασσαν',), ('καὶ',), ('οἰκήσαντας',), ('τοῦτον',), ('τὸν',), ('χῶρον',), ('τὸν',), ('καὶ',), ('νῦν',), ('οἰκέουσι',), ('αὐτίκα',), ('ναυτιλίῃσι',), ('μακρῇσι',), ('ἐπιθέσθαι',), ('ἀπαγινέοντας',), ('δὲ',), ('φορτία',), ('Αἰγύπτιά',), ('τε',), ('καὶ',), ('Ἀσσύρια',), ('τῇ',), ('τε',), ('ἄλλῃ',), ('χώρῃ',), ('ἐσαπικνέεσθαι',), ('καὶ',), ('δὴ',), ('καὶ',), ('ἐς',), ('Ἄργος', 'Entity'), ('τὸ',), ('δὲ',), ('Ἄργος', 'Entity'), ('τοῦτον',), ('τὸν',), ('χρόνον',), ('προεῖχε',), ('ἅπασι',), ('τῶν',), ('ἐν',), ('τῇ',), ('νῦν',), ('Ἑλλάδι',), ('καλεομένῃ',), ('χώρῃ',), ('.',)]

[('Ἀπικομένους',), ('δὲ',), ('τοὺς',), ('Φοίνικας',), ('ἐς',), ('δὴ',), ('τὸ',), ('Ἄργος', 'Entity'), ('τοῦτο',), ('διατίθεσθαι',), ('τὸν',), ('φόρτον',), ('.',)]

[('Πέμπτῃ',), ('δὲ',), ('ἢ',), ('ἕκτῃ',), ('ἡμέρῃ',), ('ἀπ',), ('ἧς',), ('ἀπίκοντο',), ('ἐξεμπολημένων',), ('σφι',), ('σχεδὸν',), ('πάντων',), ('ἐλθεῖν',), ('ἐπὶ',), ('τὴν',), ('θάλασσαν',), ('γυναῖκας',), ('ἄλλας',), ('τε',), ('πολλὰς',), ('καὶ',), ('δὴ',), ('καὶ',), ('τοῦ',), ('βασιλέος',), ('θυγατέρα',), ('τὸ',), ('δέ',), ('οἱ',), ('οὔνομα',), ('εἶναι',), ('κατὰ',), ('τὠυτὸ',), ('τὸ',), ('καὶ',), ('Ἕλληνες', 'Entity'), ('λέγουσι',), ('Ἰοῦν', 'Entity'), ('τὴν',), ('Ἰνάχου',), ('.',)]

[('Ταύτας',), ('στάσας',), ('κατὰ',), ('πρύμνην',), ('τῆς',), ('νεὸς',), ('ὠνέεσθαι',), ('τῶν',), ('φορτίων',), ('τῶν',), ('σφι',), ('ἦν',), ('θυμὸς',), ('μάλιστα',), ('καὶ',), ('τοὺς',), ('Φοίνικας',), ('διακελευσαμένους',), ('ὁρμῆσαι',), ('ἐπ',), ('αὐτάς',), ('.',)]

[('Τὰς', 'Entity'), ('μὲν',), ('δὴ',), ('πλέονας',), ('τῶν',), ('γυναικῶν',), ('ἀποφυγεῖν',), ('τὴν',), ('δὲ',), ('Ἰοῦν', 'Entity'), ('σὺν',), ('ἄλλῃσι',), ('ἁρπασθῆναι',), ('ἐσβαλομένους',), ('δὲ',), ('ἐς',), ('τὴν',), ('νέα',), ('οἴχεσθαι',), ('ἀποπλέοντας',), ('ἐπ',), ('Αἰγύπτου',), ('.',)]
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-27-ad3ff4dad6a4> in <module>()
      5     ner_tags = ner.tag_ner('greek', input_text=sent, output_type=list)
      6     print(ner_tags)
----> 7     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

Stopword filtering


In [33]:
from cltk.stop.greek.stops import STOPS_LIST
#p = PunktLanguageVars()

for sent in herod_sents:
    words = nltk_tokenize_words(sent)
    print('W/ STOPS', words)
    words = [w for w in words if not w in STOPS_LIST]
    print('W/O STOPS', words)
    input()


W/ STOPS ['Ἡροδότου', 'Θουρίου', 'ἱστορίης', 'ἀπόδεξις', 'ἥδε', 'ὡς', 'μήτε', 'τὰ', 'γενόμενα', 'ἐξ', 'ἀνθρώπων', 'τῷ', 'χρόνῳ', 'ἐξίτηλα', 'γένηται', 'μήτε', 'ἔργα', 'μεγάλα', 'τε', 'καὶ', 'θωμαστά', 'τὰ', 'μὲν', 'Ἕλλησι', 'τὰ', 'δὲ', 'βαρβάροισι', 'ἀποδεχθέντα', 'ἀκλέα', 'γένηται', 'τά', 'τε', 'ἄλλα', 'καὶ', 'δι', 'ἣν', 'αἰτίην', 'ἐπολέμησαν', 'ἀλλήλοισι', '.']
W/O STOPS ['Ἡροδότου', 'Θουρίου', 'ἱστορίης', 'ἀπόδεξις', 'ἥδε', 'μήτε', 'γενόμενα', 'ἀνθρώπων', 'χρόνῳ', 'ἐξίτηλα', 'γένηται', 'μήτε', 'ἔργα', 'μεγάλα', 'θωμαστά', 'Ἕλλησι', 'βαρβάροισι', 'ἀποδεχθέντα', 'ἀκλέα', 'γένηται', 'ἄλλα', 'δι', 'ἣν', 'αἰτίην', 'ἐπολέμησαν', 'ἀλλήλοισι', '.']

W/ STOPS ['Περσέων', 'μέν', 'νυν', 'οἱ', 'λόγιοι', 'Φοίνικας', 'αἰτίους', 'φασὶ', 'γενέσθαι', 'τῆς', 'διαφορῆς', 'τούτους', 'γάρ', 'ἀπὸ', 'τῆς', 'Ἐρυθρῆς', 'καλεομένης', 'θαλάσσης', 'ἀπικομένους', 'ἐπὶ', 'τήνδε', 'τὴν', 'θάλασσαν', 'καὶ', 'οἰκήσαντας', 'τοῦτον', 'τὸν', 'χῶρον', 'τὸν', 'καὶ', 'νῦν', 'οἰκέουσι', 'αὐτίκα', 'ναυτιλίῃσι', 'μακρῇσι', 'ἐπιθέσθαι', 'ἀπαγινέοντας', 'δὲ', 'φορτία', 'Αἰγύπτιά', 'τε', 'καὶ', 'Ἀσσύρια', 'τῇ', 'τε', 'ἄλλῃ', 'χώρῃ', 'ἐσαπικνέεσθαι', 'καὶ', 'δὴ', 'καὶ', 'ἐς', 'Ἄργος', 'τὸ', 'δὲ', 'Ἄργος', 'τοῦτον', 'τὸν', 'χρόνον', 'προεῖχε', 'ἅπασι', 'τῶν', 'ἐν', 'τῇ', 'νῦν', 'Ἑλλάδι', 'καλεομένῃ', 'χώρῃ', '.']
W/O STOPS ['Περσέων', 'νυν', 'λόγιοι', 'Φοίνικας', 'αἰτίους', 'φασὶ', 'γενέσθαι', 'διαφορῆς', 'τούτους', 'Ἐρυθρῆς', 'καλεομένης', 'θαλάσσης', 'ἀπικομένους', 'τήνδε', 'θάλασσαν', 'οἰκήσαντας', 'τοῦτον', 'χῶρον', 'νῦν', 'οἰκέουσι', 'αὐτίκα', 'ναυτιλίῃσι', 'μακρῇσι', 'ἐπιθέσθαι', 'ἀπαγινέοντας', 'φορτία', 'Αἰγύπτιά', 'Ἀσσύρια', 'ἄλλῃ', 'χώρῃ', 'ἐσαπικνέεσθαι', 'ἐς', 'Ἄργος', 'Ἄργος', 'τοῦτον', 'χρόνον', 'προεῖχε', 'ἅπασι', 'νῦν', 'Ἑλλάδι', 'καλεομένῃ', 'χώρῃ', '.']
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-33-6a50c79b623c> in <module>()
      7     words = [w for w in words if not w in STOPS_LIST]
      8     print('W/O STOPS', words)
----> 9     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

Concordance


In [34]:
from cltk.utils.philology import Philology
p = Philology()

In [36]:
herod_fp = '/Users/kyle/cltk_data/greek/text/tlg/plaintext/TLG0016.txt'

p.write_concordance_from_file(herod_fp, 'kyle_herod')


INFO:CLTK:Wrote concordance to '/Users/kyle/cltk_data/user_data/concordance_kyle_herod.txt'.

Word count


In [37]:
from nltk.text import Text

In [40]:
words = nltk_tokenize_words(herod_clean)
print(words[:15])


['Ἡροδότου', 'Θουρίου', 'ἱστορίης', 'ἀπόδεξις', 'ἥδε', 'ὡς', 'μήτε', 'τὰ', 'γενόμενα', 'ἐξ', 'ἀνθρώπων', 'τῷ', 'χρόνῳ', 'ἐξίτηλα', 'γένηται']

In [41]:
t = Text(words)

In [42]:
vocabulary_count = t.vocab()

In [43]:
vocabulary_count['ἱστορίης']


Out[43]:
2

In [44]:
vocabulary_count['μήτε']


Out[44]:
63

In [45]:
vocabulary_count['ἀνθρώπων']


Out[45]:
137

Word frequency


In [46]:
from cltk.utils.frequency import Frequency

In [47]:
freq = Frequency()

In [51]:
herod_frequencies = freq.counter_from_str(herod_clean)

In [53]:
herod_frequencies.most_common()


Out[53]:
[('καὶ', 7152),
 ('δὲ', 7118),
 ('τε', 2702),
 ('ἐς', 2674),
 ('τῶν', 2512),
 ('τὴν', 2441),
 ('οἱ', 2146),
 ('μὲν', 2130),
 ('τὸν', 2033),
 ('τὸ', 1896),
 ('τοῦ', 1865),
 ('ἐν', 1685),
 ('ὁ', 1621),
 ('τὰ', 1566),
 ('τῆς', 1519),
 ('τοὺς', 1322),
 ('γὰρ', 1293),
 ('δὴ', 1268),
 ('ὡς', 1148),
 ('τῷ', 1118),
 ('ἐπὶ', 972),
 ('τῇ', 946),
 ('ἐκ', 876),
 ('τοῖσι', 833),
 ('ταῦτα', 822),
 ('πρὸς', 770),
 ('οὐκ', 709),
 ('τὰς', 696),
 ('οὐ', 612),
 ('σφι', 610),
 ('εἶναι', 602),
 ('ἡ', 597),
 ('δέ', 565),
 ('κατὰ', 513),
 ('τοῦτο', 492),
 ('ἀπὸ', 472),
 ('περὶ', 458),
 ('ὦν', 448),
 ('μὴ', 438),
 ('ἦν', 438),
 ('ὑπὸ', 437),
 ('ἂν', 428),
 ('ἐστι', 424),
 ('μέν', 420),
 ('αὐτῶν', 417),
 ('οὔτε', 398),
 ('οὕτω', 397),
 ('ἢ', 390),
 ('τούτων', 384),
 ('τι', 366),
 ('δ', 352),
 ('παρὰ', 329),
 ('μιν', 327),
 ('τάδε', 326),
 ('νυν', 324),
 ('αὐτοῦ', 315),
 ('Οἱ', 307),
 ('ἐπ', 303),
 ('Ὁ', 298),
 ('πάντα', 292),
 ('εἰ', 288),
 ('Καὶ', 275),
 ('τούτου', 271),
 ('Ταῦτα', 265),
 ('αὐτὸν', 259),
 ('τοῦτον', 255),
 ('οὗτοι', 253),
 ('ὅτι', 245),
 ('περ', 243),
 ('διὰ', 235),
 ('Ὡς', 233),
 ('ἑωυτοῦ', 228),
 ('μετὰ', 228),
 ('πρότερον', 223),
 ('αἱ', 223),
 ('γε', 222),
 ('Ἑλλήνων', 221),
 ('μοι', 217),
 ('ἐξ', 217),
 ('ἀλλὰ', 216),
 ('οὐδὲν', 216),
 ('ἔτι', 216),
 ('Περσέων', 214),
 ('γενέσθαι', 212),
 ('αὐτὸς', 208),
 ('ἀλλ', 203),
 ('λέγουσι', 202),
 ('οὔνομα', 197),
 ('νῦν', 192),
 ('ἦσαν', 187),
 ('ἐγένετο', 187),
 ('μάλιστα', 186),
 ('τῇσι', 183),
 ('τοι', 181),
 ('πάντων', 177),
 ('ταύτῃ', 176),
 ('ἐγὼ', 175),
 ('οὗτος', 172),
 ('σφεας', 172),
 ('πόλιν', 171),
 ('ταύτην', 171),
 ('τότε', 167),
 ('Πέρσαι', 167),
 ('ἅμα', 163),
 ('ὃς', 160),
 ('χρόνον', 160),
 ('Ἕλληνες', 158),
 ('ἐπείτε', 157),
 ('τούτους', 157),
 ('γάρ', 156),
 ('νέας', 155),
 ('ἄλλα', 155),
 ('αὐτοὺς', 154),
 ('εἴη', 153),
 ('τις', 152),
 ('αὐτοὶ', 152),
 ('καί', 151),
 (')', 150),
 ('(', 150),
 ('Ἀθηναῖοι', 149),
 ('ἢν', 148),
 ('ἐὼν', 148),
 ('ὥστε', 148),
 ('ἀνδρῶν', 147),
 ('ἐστὶ', 146),
 ('Ἀθηναίων', 144),
 ('τούτοισι', 144),
 ('οὐδὲ', 144),
 ('αὐτῷ', 142),
 ('δύο', 140),
 ('τούτῳ', 140),
 ('οἳ', 140),
 ('ὅκως', 139),
 ('ἐόντα', 138),
 ('ἀνθρώπων', 137),
 ('λόγον', 137),
 ('βασιλέος', 133),
 ('χώρην', 131),
 ('Μετὰ', 131),
 ('εἰσι', 131),
 ('σφέας', 130),
 ('βασιλέα', 129),
 ('Ἑλλάδα', 129),
 ('ἐόντες', 128),
 ('θάλασσαν', 128),
 ('γῆν', 127),
 ('ἵνα', 126),
 ('ἄλλων', 126),
 ('ὀπίσω', 126),
 ('αὐτοῖσι', 126),
 ('ταύτης', 124),
 ('ποιέειν', 123),
 ('πᾶσαν', 123),
 ('εὖ', 123),
 ('Πέρσας', 122),
 ('Ξέρξης', 122),
 ('κατ', 121),
 ('ἄνδρα', 121),
 ('εἶχον', 121),
 ('ἤδη', 120),
 ('δή', 120),
 ('ὧδε', 119),
 ('ἐνθαῦτα', 118),
 ('ἔστι', 116),
 ('Ὦ', 116),
 ('ὑμῖν', 115),
 ('αὐτὴν', 115),
 ('μέντοι', 114),
 ('ἀπ', 114),
 ('Δαρεῖος', 114),
 ('ἀνὴρ', 113),
 ('ἄνδρας', 113),
 ('ὅ', 113),
 ('αὐτίκα', 111),
 ('ἄλλοι', 110),
 ('χώρης', 109),
 ('παρ', 109),
 ('πᾶν', 109),
 ('Πέρσῃσι', 108),
 ('πάντες', 105),
 ('ἡμῖν', 103),
 ('ἔλεγε', 103),
 ('ἐπεὰν', 102),
 ('Αἰγύπτιοι', 102),
 ('ποταμὸν', 100),
 ('ὑπ', 100),
 ('πολλὰ', 99),
 ('Αἴγυπτον', 99),
 ('εἶπε', 98),
 ('μᾶλλον', 98),
 ('ἐγίνετο', 97),
 ('Ἡ', 97),
 ('αὐτῆς', 96),
 ('πόλιος', 96),
 ('εἵνεκα', 96),
 ('Αἰγύπτου', 95),
 ('ἔχειν', 94),
 ('ἔχων', 94),
 ('Οὕτω', 94),
 ('πολλὸν', 93),
 ('ἔχει', 92),
 ('Δαρείου', 92),
 ('Ἐν', 92),
 ('πλὴν', 92),
 ('εἰπεῖν', 92),
 ('Τὸ', 90),
 ('ἔτεα', 90),
 ('εἶχε', 90),
 ('λέγεται', 90),
 ('ἔφη', 90),
 ('αὕτη', 90),
 ('πολλῷ', 90),
 ('αἰεὶ', 89),
 ('βασιλέϊ', 89),
 ('ἄλλο', 88),
 ('παῖς', 88),
 ('λέγειν', 87),
 ('δι', 87),
 ('Λακεδαιμόνιοι', 87),
 ('γίνεται', 86),
 ('τρόπῳ', 86),
 ('μέχρι', 86),
 ('χρήματα', 86),
 ('ἀπίκετο', 86),
 ('σφίσι', 86),
 ('Εἰ', 86),
 ('ἔχοντες', 86),
 ('τά', 86),
 ('ἐμοὶ', 86),
 ('βασιλεὺς', 85),
 ('Σκύθαι', 85),
 ('Αἰγυπτίων', 85),
 ('κατά', 84),
 ('πόλις', 84),
 ('ἄλλους', 83),
 ('ἐνθεῦτεν', 83),
 ('κάρτα', 83),
 ('λέγων', 82),
 ('ἡμεῖς', 82),
 ('λόγῳ', 81),
 ('ἔλεγον', 81),
 ('εἴ', 81),
 ('ἱρὸν', 80),
 ('πάντας', 80),
 ('τὠυτὸ', 80),
 ('Κύρου', 80),
 ('ἑωυτῶν', 79),
 ('οὐδέν', 78),
 ('ἄνδρες', 78),
 ('Ἕλληνας', 77),
 ('Ἕλλησι', 77),
 ('σὺ', 77),
 ('ἔπειτα', 77),
 ('νεῶν', 77),
 ('ὅσον', 77),
 ('πρήγματα', 76),
 ('ἡμέας', 76),
 ('τεῖχος', 76),
 ('Τὰ', 75),
 ('Οὗτοι', 75),
 ('εἰσὶ', 75),
 ('σε', 74),
 ('παῖδα', 74),
 ('λόγους', 73),
 ('Κῦρος', 73),
 ('τέ', 72),
 ('ἀνδρὸς', 72),
 ('Τῶν', 72),
 ('ἄλλοισι', 72),
 ('Κροῖσος', 72),
 ('Ἐπείτε', 72),
 ('γῆς', 71),
 ('Ἀθηναίοισι', 71),
 ('στρατὸν', 71),
 ('οἵ', 71),
 ('μέγα', 71),
 ('πρὶν', 70),
 ('ποταμοῦ', 70),
 ('ὕδωρ', 70),
 ('γυναῖκα', 70),
 ('Σάρδις', 70),
 ('ἀπίκοντο', 69),
 ('πέρι', 69),
 ('στρατιὴν', 69),
 ('πρῶτα', 69),
 ('Ἰώνων', 69),
 ('Ἀθήνας', 68),
 ('Σκυθέων', 68),
 ('βασιλεῦ', 68),
 ('πρὸ', 68),
 ('ὕστερον', 68),
 ('Τὸν', 67),
 ('σὺν', 66),
 ('Ἔστι', 66),
 ('ἄρα', 66),
 ('ἐγένοντο', 66),
 ('γνώμην', 66),
 ('ἑωυτῷ', 65),
 ('πέντε', 65),
 ('ὥς', 64),
 ('θαλάσσης', 64),
 ('ἐόντας', 64),
 ('γυναῖκας', 64),
 ('πρῆγμα', 64),
 ('οὐδένα', 63),
 ('ἐὸν', 63),
 ('μήτε', 63),
 ('παῖδας', 63),
 ('λόγος', 63),
 ('ἔχω', 63),
 ('εἴτε', 63),
 ('τόδε', 63),
 ('μή', 63),
 ('θεῶν', 63),
 ('Μήδων', 62),
 ('Ἀθηναίους', 62),
 ('Ἴωνες', 62),
 ('μεγάλα', 62),
 ('αὖτις', 62),
 ('χρόνῳ', 62),
 ('ἄν', 61),
 ('ὑπὲρ', 61),
 ('δέκα', 61),
 ('θυγατέρα', 61),
 ('ἐοῦσα', 61),
 ('Λακεδαιμονίων', 61),
 ('αὐτῇ', 61),
 ('ἑπτὰ', 60),
 ('ἐκέλευε', 60),
 ('τοιάδε', 60),
 ('ἀνὰ', 60),
 ('ὃ', 60),
 ('στρατιῆς', 59),
 ('Ἐνθαῦτα', 59),
 ('ἔργον', 58),
 ('με', 58),
 ('Τοῦτο', 58),
 ('τοιόνδε', 58),
 ('ἐμὲ', 58),
 ('ὦ', 58),
 ('Τούτων', 58),
 ('ἐδόκεε', 58),
 ('πόλεμον', 57),
 ('Καμβύσης', 57),
 ('ἕκαστος', 57),
 ('εἴκοσι', 57),
 ('ἐπεὶ', 57),
 ('σφέων', 57),
 ('στρατεύεσθαι', 57),
 ('ἐόντων', 57),
 ('πρῶτον', 56),
 ('Τοῖσι', 56),
 ('βάρβαροι', 56),
 ('ἐστί', 56),
 ('βαρβάρων', 56),
 ('ὁμοίως', 56),
 ('Νῦν', 56),
 ('Οὗτος', 56),
 ('εἵνεκεν', 56),
 ('ὑμέας', 55),
 ('ἄλλος', 55),
 ('γίνεσθαι', 55),
 ('ὅσα', 55),
 ('ἄλλην', 55),
 ('ἡμερέων', 55),
 ('οὐδεὶς', 55),
 ('ἐμέο', 55),
 ('ἅτε', 54),
 ('ἔθνος', 53),
 ('Ξέρξεω', 53),
 ('οὐδ', 53),
 ('ἡμέρης', 53),
 ('Ἀπὸ', 53),
 ('μεγάλως', 53),
 ('χρημάτων', 53),
 ('οὔ', 52),
 ('τρεῖς', 52),
 ('μέσον', 52),
 ('τάχιστα', 52),
 ('Σκύθας', 52),
 ('ἑωυτὸν', 52),
 ('χρέωνται', 52),
 ('Ἐπεὶ', 52),
 ('ἀντὶ', 51),
 ('δεῖ', 51),
 ('ἐοῦσαν', 50),
 ('Ἀσίην', 50),
 ('τινα', 50),
 ('ἀπικέσθαι', 50),
 ('ὄψιν', 50),
 ('οἷα', 50),
 ('ποιεῦσι', 49),
 ('λέγοντες', 49),
 ('ἑκατὸν', 49),
 ('Δαρείῳ', 49),
 ('τριήκοντα', 49),
 ('ὅσοι', 48),
 ('ἔσχε', 48),
 ('Ἀλλ', 48),
 ('χῶρον', 48),
 ('ἐκείνου', 48),
 ('μοῦνον', 48),
 ('ἐποίεε', 47),
 ('πλῆθος', 47),
 ('ὅτε', 47),
 ('μέγιστον', 47),
 ('χρηστήριον', 47),
 ('ἄνω', 47),
 ('ἵππον', 46),
 ('Τοὺς', 46),
 ('Λιβύης', 46),
 ('κατύπερθε', 46),
 ('πόλι', 46),
 ('ποταμὸς', 46),
 ('ἔφασαν', 46),
 ('Ἀσίης', 46),
 ('ὁδὸν', 46),
 ('τάλαντα', 46),
 ('τοῖσδε', 45),
 ('ἄλλον', 45),
 ('Δαρεῖον', 45),
 ('ἕνα', 45),
 ('Ἐπεὰν', 45),
 ('μηδὲ', 45),
 ('ἀρχὴν', 45),
 ('λόγου', 45),
 ('καλέουσι', 45),
 ('Ἐς', 44),
 ('ὁδοῦ', 44),
 ('Πυθίη', 44),
 ('κως', 44),
 ('ἔχουσι', 44),
 ('ἀνθρώπους', 44),
 ('στρατοῦ', 44),
 ('γυναῖκες', 44),
 ('Ἐκ', 44),
 ('σφεων', 44),
 ('δοκέω', 44),
 ('Δελφοὺς', 44),
 ('Τὴν', 44),
 ('ἱρὰ', 43),
 ('χώρη', 43),
 ('οὐκέτι', 43),
 ('γενόμενον', 43),
 ('χρόνου', 43),
 ('γυναικῶν', 43),
 ('αὐτόν', 43),
 ('ἐποίησε', 43),
 ('αὐτός', 43),
 ('λέγει', 43),
 ('ἔξω', 43),
 ('κοτε', 42),
 ('βουλόμενος', 42),
 ('Ἐπὶ', 42),
 ('στρατὸς', 42),
 ('παίδων', 42),
 ('οὗ', 42),
 ('Μαρδόνιος', 42),
 ('γένος', 42),
 ('πολλοὶ', 42),
 ('Ξέρξην', 42),
 ('ἡμέρας', 42),
 ('ἔσεσθαι', 42),
 ('Σπαρτιητέων', 42),
 ('εἴπας', 42),
 ('Αἰγύπτῳ', 41),
 ('ἐποίευν', 41),
 ('ἐόντος', 41),
 ('ἐγίνοντο', 41),
 ('δεύτερα', 41),
 ('Πρὸς', 41),
 ('ἔχοντα', 41),
 ('αὐτέων', 41),
 ('πολλοὺς', 41),
 ('Ἑλλήσποντον', 41),
 ('νηυσὶ', 41),
 ('ποιῆσαι', 40),
 ('ἀρχήν', 40),
 ('ὑμέων', 40),
 ('ῥέει', 40),
 ('αὐτούς', 40),
 ('ἔθνεα', 40),
 ('Τότε', 40),
 ('μοῦνοι', 40),
 ('ἡμέρῃ', 40),
 ('Καί', 40),
 ('Ἴωνας', 39),
 ('τί', 39),
 ('ἀστῶν', 39),
 ('Οὐ', 39),
 ('παῖδες', 39),
 ('Ἐγὼ', 39),
 ('θεὸν', 39),
 ('ἔδοξε', 39),
 ('ὄρος', 39),
 ('ἦρχε', 39),
 ('ἕκαστον', 38),
 ('ἰέναι', 38),
 ('ἀπικόμενος', 38),
 ('ἤιε', 38),
 ('γένηται', 38),
 ('ἔσται', 38),
 ('οἰκέουσι', 38),
 ('Κατὰ', 38),
 ('Ξέρξῃ', 38),
 ('ἀτρεκέως', 38),
 ('δῶρα', 38),
 ('δοκέει', 38),
 ('χρᾶσθαι', 38),
 ('ἔργα', 38),
 ('πᾶσα', 38),
 ('βουλόμενοι', 38),
 ('Ἑλλάδος', 38),
 ('πλέον', 38),
 ('Κροίσου', 38),
 ('ἡμέων', 37),
 ('ἤν', 37),
 ('ἐποιέετο', 37),
 ('πρηγμάτων', 37),
 ('ἱρόν', 37),
 ('κω', 37),
 ('Κροῖσον', 37),
 ('ἴδμεν', 37),
 ('κήρυκα', 37),
 ('ἠῶ', 37),
 ('ποιήσας', 37),
 ('λίμνης', 37),
 ('ἐλθεῖν', 37),
 ('σέο', 37),
 ('τέκνα', 37),
 ('ἡμέρην', 37),
 ('ἀκούσας', 36),
 ('τόν', 36),
 ('τουτέων', 36),
 ('ἐποιεῦντο', 36),
 ('φασι', 36),
 ('ταύτας', 36),
 ('Λυδῶν', 36),
 ('τινὰ', 36),
 ('βασιληίην', 36),
 ('ἀπικόμενοι', 36),
 ('συμμάχων', 36),
 ('δοκέειν', 36),
 ('εἴρηται', 36),
 ('μεγάλην', 36),
 ('στρατόπεδον', 36),
 ('τείχεος', 35),
 ('τρόπον', 35),
 ('ἱροῦ', 35),
 ('τινες', 35),
 ('παρείχοντο', 35),
 ('Λακεδαιμονίοισι', 35),
 ('Ἄμασις', 35),
 ('πεντήκοντα', 35),
 ('δύναμιν', 35),
 ('ἤ', 35),
 ('μεταξὺ', 35),
 ('Κλεομένης', 35),
 ('Φοίνικες', 35),
 ('παιδὸς', 35),
 ('μάχην', 35),
 ('ἀγγέλους', 34),
 ('νέες', 34),
 ('στρατιῇ', 34),
 ('ποιεύμενος', 34),
 ('ἵππου', 34),
 ('κεῖται', 34),
 ('γῆ', 34),
 ('κεφαλὴν', 34),
 ('οὐδαμῶς', 34),
 ('πολλοῦ', 34),
 ('Δελφοῖσι', 34),
 ('Σάμον', 34),
 ('αὐτὰ', 34),
 ('πάντως', 34),
 ('Ἦν', 34),
 ('ἄνεμον', 34),
 ('χώρῃ', 34),
 ('αὐτόθι', 34),
 ('δυώδεκα', 34),
 ('ὥσπερ', 34),
 ('ἐπύθοντο', 34),
 ('τεσσεράκοντα', 34),
 ('πλέονες', 34),
 ('κου', 33),
 ('λίμνην', 33),
 ('πάσης', 33),
 ('τήν', 33),
 ('μέγαθος', 33),
 ('πατρὸς', 33),
 ('αὗται', 33),
 ('Καμβύσεω', 33),
 ('ὀκτὼ', 33),
 ('Τοῦ', 33),
 ('πεδίον', 33),
 ('τοῦδε', 33),
 ('αὐτὸ', 33),
 ('μετ', 33),
 ('τόνδε', 33),
 ('ἔνθα', 33),
 ('πλέω', 33),
 ('ᾧ', 33),
 ('Σὺ', 33),
 ('καλέεται', 33),
 ('ἐποιήσαντο', 33),
 ('θεῷ', 33),
 ('ἐκείνων', 33),
 ('φὰς', 32),
 ('μάχῃ', 32),
 ('ἕτερον', 32),
 ('Ἀστυάγης', 32),
 ('γυνὴ', 32),
 ('Πέρσην', 32),
 ('γενόμενος', 32),
 ('χωρὶς', 32),
 ('ἐούσης', 32),
 ('νῆσον', 32),
 ('Κροίσῳ', 32),
 ('πείθεσθαι', 32),
 ('τοιαῦτα', 32),
 ('οὔτ', 32),
 ('ἄλλῃ', 32),
 ('πολλόν', 32),
 ('ἓξ', 32),
 ('τοσοῦτο', 32),
 ('ὅπλα', 32),
 ('ἔσω', 31),
 ('Ἰωνίην', 31),
 ('Ἀρισταγόρης', 31),
 ('γλῶσσαν', 31),
 ('ἐποίησαν', 31),
 ('Διὸς', 31),
 ('θεοῦ', 31),
 ('πολλῶν', 31),
 ('πολίων', 31),
 ('ῥέων', 31),
 ('ἥλιον', 31),
 ('πρῶτοι', 31),
 ('Σπάρτης', 31),
 ('δεύτερον', 31),
 ('πυθόμενος', 31),
 ('Σπάρτῃ', 31),
 ('Ἄνδρες', 31),
 ('ταχίστην', 31),
 ('Τῆς', 31),
 ('εἴρετο', 31),
 ('λαβὼν', 30),
 ('ποιέεσθαι', 30),
 ('καλεομένην', 30),
 ('οὐδενὸς', 30),
 ('θεὸς', 30),
 ('ταῦτά', 30),
 ('τοιῷδε', 30),
 ('σὲ', 30),
 ('Σπάρτην', 30),
 ('ἐπειδὴ', 30),
 ('ἄλλως', 30),
 ('ἄνθρωποι', 30),
 ('Αἰγυπτίοισι', 30),
 ('ἔπεμπε', 30),
 ('Ἅρπαγος', 30),
 ('Λιβύην', 30),
 ('μάχης', 30),
 ('πάσας', 30),
 ('οὐδενὶ', 30),
 ('γυναικὸς', 30),
 ('ποταμῶν', 30),
 ('εἶδον', 30),
 ('τέλος', 30),
 ('νέμονται', 30),
 ('μίαν', 30),
 ('ὑμεῖς', 30),
 ('ἀμείβετο', 29),
 ('τοσαῦτα', 29),
 ('οἰκία', 29),
 ('αὐτὴ', 29),
 ('ἐθνέων', 29),
 ('ἤπειρον', 29),
 ('ἀνθρώποισι', 29),
 ('ἄλλῳ', 29),
 ('τῶνδε', 29),
 ('Αἰγινητέων', 29),
 ('Μαρδονίου', 29),
 ('οἷά', 29),
 ('Αἰγινῆται', 29),
 ('οὐνόματα', 29),
 ('τοιοῦτο', 29),
 ('πρῶτος', 29),
 ('ἑξήκοντα', 29),
 ('ἔπος', 29),
 ('νόῳ', 29),
 ('Νείλου', 29),
 ('ἥ', 29),
 ('νυκτὸς', 29),
 ('ἀνδρὶ', 29),
 ('ἄλλας', 29),
 ('Ἴωσι', 29),
 ('Αἰγυπτίους', 29),
 ('στρατιήν', 29),
 ('ἵππων', 29),
 ('ἔπλεον', 28),
 ('μηδὲν', 28),
 ('τό', 28),
 ('ὅστις', 28),
 ('Σαρδίων', 28),
 ('ἣ', 28),
 ('ἐκδιδοῖ', 28),
 ('γίνονται', 28),
 ('τίς', 28),
 ('ὁρέων', 28),
 ('ἵππος', 28),
 ('κάτω', 28),
 ('ὄπισθε', 28),
 ('τοιούτῳ', 28),
 ('ἱρέες', 28),
 ('μάλιστά', 28),
 ('γνώμῃ', 28),
 ('ἀμφὶ', 28),
 ('πέμψας', 28),
 ('ἕκαστοι', 28),
 ('γῇ', 28),
 ('νέα', 28),
 ('νόμον', 28),
 ('κῃ', 27),
 ('σῶμα', 27),
 ('ποιήσασθαι', 27),
 ('ἄνευ', 27),
 ('βασιλέων', 27),
 ('χρεώμενοι', 27),
 ('ἔτεϊ', 27),
 ('ἓν', 27),
 ('Μίλητον', 27),
 ('ἐκεῖνον', 27),
 ('κακῶν', 27),
 ('ἀμφοτέρων', 27),
 ('οὐδέ', 27),
 ('Σάμιοι', 27),
 ('Θεμιστοκλέης', 27),
 ('λέγω', 27),
 ('στρατηγὸς', 27),
 ('Ἐνθεῦτεν', 27),
 ('οἷοί', 27),
 ('Μιλτιάδης', 27),
 ('Σαλαμῖνα', 27),
 ('Σοῦσα', 27),
 ('σοὶ', 27),
 ('μέγας', 27),
 ('Ἀθηνέων', 27),
 ('οὐδεμίαν', 27),
 ('πεζὸν', 27),
 ('πρόσω', 27),
 ('ἁπάντων', 26),
 ('ἦλθε', 26),
 ('ἄμεινον', 26),
 ('ἐοῦσι', 26),
 ('τούς', 26),
 ('μῆκος', 26),
 ('κακὸν', 26),
 ('ἑσπέρης', 26),
 ('εὐπετέως', 26),
 ('πολέμου', 26),
 ('Θηβαίων', 26),
 ('Λακεδαιμονίους', 26),
 ('Ἑλλάδι', 26),
 ('Ἱστιαῖος', 26),
 ('μυριάδες', 26),
 ('ὀρθῶς', 26),
 ('Ἀλέξανδρος', 26),
 ('μοῦνος', 26),
 ('ποιεῦντες', 26),
 ('ἀνέθηκε', 26),
 ('βορέην', 26),
 ('ἀριθμὸν', 26),
 ('αἰτίην', 26),
 ('ᾖ', 26),
 ('κακῶς', 26),
 ('στρατόν', 26),
 ('ἄστυ', 26),
 ('εἷλε', 26),
 ('ἑωυτῆς', 26),
 ('Οὐκ', 26),
 ('ποιήσαντες', 26),
 ('οἵδε', 26),
 ('ὄρεος', 26),
 ('ἔσχον', 25),
 ('ὁρῶντες', 25),
 ('Περίανδρος', 25),
 ('γνώμη', 25),
 ('τοῦτό', 25),
 ('Σαμίων', 25),
 ('ἐστρατεύοντο', 25),
 ('διδοῖ', 25),
 ('ἔπεμπον', 25),
 ('εἰσί', 25),
 ('Μῆδοι', 25),
 ('μαντήιον', 25),
 ('οἰκέοντες', 25),
 ('ἐόντι', 25),
 ('Μιλήτου', 25),
 ('χεῖρας', 25),
 ('Κῦρον', 25),
 ('χῶρος', 25),
 ('χωρίον', 25),
 ('ἵππους', 25),
 ('ὅς', 25),
 ('ἔμελλε', 25),
 ('δίκας', 25),
 ('κελεύων', 25),
 ('Πέρσης', 25),
 ('πᾶσι', 25),
 ('ἔπεα', 25),
 ('πρώτους', 24),
 ('ἔπλεε', 24),
 ('ποιεῦνται', 24),
 ('Ἀργείων', 24),
 ('πατέρα', 24),
 ('πάρεξ', 24),
 ('χίλιοι', 24),
 ('ναυτικὸς', 24),
 ('πολλοῖσι', 24),
 ('θέλων', 24),
 ('ποιήσειν', 24),
 ('εἰδέναι', 24),
 ('ἔς', 24),
 ('δεινὸν', 24),
 ('Πελοπόννησον', 24),
 ('ἄγειν', 24),
 ('πολλά', 24),
 ('ἀρχῆς', 24),
 ('παιδίον', 24),
 ('οὐδεμία', 24),
 ('οἷόν', 24),
 ('νομίζουσι', 24),
 ('Ταύτην', 24),
 ('ὅδε', 24),
 ('Πελοποννήσου', 24),
 ('Εἰσὶ', 24),
 ('θύουσι', 24),
 ('εἶδε', 24),
 ('ταὐτὰ', 24),
 ('χρυσὸν', 24),
 ('ἀνδράσι', 24),
 ('δοῦναι', 24),
 ('μεγάλη', 23),
 ('ἑνὸς', 23),
 ('νήσου', 23),
 ('μηδένα', 23),
 ('ἑσπέρην', 23),
 ('Σπαρτιῆται', 23),
 ('πλέονας', 23),
 ('ἔωσι', 23),
 ('Λίβυες', 23),
 ('ἀπαλλάσσοντο', 23),
 ('ἐπωνυμίην', 23),
 ('Τούτους', 23),
 ('Νεῖλος', 23),
 ('ἑτέρου', 23),
 ('πλήθεϊ', 23),
 ('ἀλλήλων', 23),
 ('νόμος', 23),
 ('ἄγγελον', 23),
 ('ἑκάστου', 23),
 ('Μήδους', 23),
 ('θαλάσσῃ', 23),
 ('πόλιες', 23),
 ('φασὶ', 23),
 ('Ἀργεῖοι', 23),
 ('βάρβαρον', 23),
 ('πλέειν', 23),
 ('Ἀσίῃ', 23),
 ('ἱρῷ', 23),
 ('οὐδαμὰ', 23),
 ('μέγαν', 23),
 ('γράμματα', 22),
 ('ἧσσον', 22),
 ('Μαρδόνιον', 22),
 ('λόγων', 22),
 ('ἀπέπεμψε', 22),
 ('ἐλθὼν', 22),
 ('Τοῦτον', 22),
 ('ἀλλά', 22),
 ('πυνθάνομαι', 22),
 ('Λιβύων', 22),
 ('ἠπείρου', 22),
 ('ἀπέθανε', 22),
 ('ἑωυτόν', 22),
 ('πάλαι', 22),
 ('ἦλθον', 22),
 ('στάδιοι', 22),
 ('ἄγων', 22),
 ('βασιλέες', 22),
 ('ποταμῷ', 22),
 ('Ἡρακλέος', 22),
 ('τοίνυν', 22),
 ('Ἀλλὰ', 22),
 ('ὕδατος', 22),
 ('Θεσσαλίην', 22),
 ('ἀγάλματα', 22),
 ('ὀρέων', 22),
 ('πλοῖα', 22),
 ('ἡμέρη', 22),
 ('ἀδελφεὸν', 22),
 ('θάνατον', 22),
 ('ποταμόν', 22),
 ('μυριάδας', 22),
 ('ἤισαν', 22),
 ('κέρας', 22),
 ('γενόμενοι', 22),
 ('Τούτου', 22),
 ('εἷς', 22),
 ('τόξα', 22),
 ('ἄριστα', 22),
 ('ὀλίγῳ', 22),
 ('μαθόντες', 22),
 ('Ἄμασιν', 22),
 ('τοιήνδε', 22),
 ('αὐτοί', 22),
 ('Ἀθηναίης', 21),
 ('τύραννος', 21),
 ('ἐμοί', 21),
 ('ὅτεο', 21),
 ('νομὸς', 21),
 ('δοκέων', 21),
 ('ἱρῶν', 21),
 ('ἤκουσαν', 21),
 ('Καμβύσην', 21),
 ('σταδίων', 21),
 ('κακὰ', 21),
 ('σφεα', 21),
 ('ἡλίου', 21),
 ('οἶδα', 21),
 ('βασιληίης', 21),
 ('ἥκιστα', 21),
 ('Μέχρι', 21),
 ('αἰεί', 21),
 ('σιτία', 21),
 ('στρατηγοὶ', 21),
 ('εὖρος', 21),
 ('κεφαλῇσι', 21),
 ('ἀρχὰς', 21),
 ('βασιλεύς', 21),
 ('πυθέσθαι', 21),
 ('ἐποιήσατο', 21),
 ('Ἢν', 21),
 ('νύκτα', 21),
 ('παντὸς', 21),
 ('σεωυτοῦ', 21),
 ('πέμπει', 21),
 ('ἑβδομήκοντα', 21),
 ('Φοινίκων', 21),
 ('ἐγεγόνεε', 21),
 ('κάλλιστα', 21),
 ('γενόμενα', 21),
 ('πολλὴν', 21),
 ('ὀλίγον', 21),
 ('δήμου', 21),
 ('Πέρσῃ', 21),
 ('γενομένου', 21),
 ('ἄλλου', 21),
 ('τυγχάνει', 21),
 ('ἀπαλλάσσεσθαι', 21),
 ('οὕτως', 21),
 ('ναυμαχίῃ', 21),
 ('θεοῖσι', 21),
 ('πῦρ', 21),
 ('σύ', 21),
 ('Εὐρώπην', 21),
 ('ἄγγελοι', 20),
 ('κόλπον', 20),
 ('χώρῳ', 20),
 ('Ἀττικὴν', 20),
 ('Ταῦτά', 20),
 ('Πολυκράτεος', 20),
 ('ἐγώ', 20),
 ('ἐπιστάμενοι', 20),
 ('ὅμως', 20),
 ('καλέονται', 20),
 ('μέγιστα', 20),
 ('ἔδωκε', 20),
 ('βασιλέας', 20),
 ('ἔδοσαν', 20),
 ('πυθόμενοι', 20),
 ('ποιησάμενοι', 20),
 ('ἵπποι', 20),
 ('μαθὼν', 20),
 ('ὧν', 20),
 ('βουλόμενον', 20),
 ('ἄλλη', 20),
 ('ἀγχοῦ', 20),
 ('στρατῷ', 20),
 ('κατέλαβε', 20),
 ('ἐών', 20),
 ('ἐντὸς', 20),
 ('ἣν', 20),
 ('ἥμισυ', 20),
 ('καλεόμενον', 20),
 ('Καμβύσῃ', 20),
 ('ἧς', 20),
 ('λοιποὶ', 20),
 ('Εὐρώπης', 20),
 ...]

Lemmatizing


In [ ]: